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HE: [目的 /意义 ] 本 研究 则 在 系统 地 分 析 突 发 事件 微 博 舆情 的 主题 演化 趋势 ， 
可 视 化 与 情 发 展 过 程 中 的 焦点 主题 ， 为 后 续 网 络 与 情 的 引导 提供 实践 参考 依据 。 
方法/ 过程] 采用 BERTopic 主题 提取 模型 识别 与 情 发 展 不 同 阶 段 的 主题 ， 并 采用 
余弦 相似 度 度量 主题 间 的 相似 性 ， 可 视 化 主题 的 演化 路 径 。 以 新 浪 微 博 “ 东 航 
Mu5735 空难 事件 ”为 例 ， 进 行 突 发 事件 网 络 与 情 的 主题 演化 研究 。[ 结 果 / 结 论 ] 
实证 研究 结果 表明 ， 基 于 BERTopic 主题 模型 对 性 情事 件 建 模 得 到 高 效 且 可 观 性 
较 高 的 主题 识别 结果 ， 准 确 把 握 和 与 情 发 展 每 个 阶段 中 热点 主题 ， 揭 示 了 与 情 传 
播 过 程 中 主题 演变 过 程 。[ 创 新 /局 限 ] 本 研究 提出 了 一 种 基于 BERTopic 模型 对 短 
文本 突 发 事件 微 博 与 情 主题 演化 分 析 的 总 体 框架 ， 对 主题 提取 后 的 结果 进行 主 
题 内 容 演 化 分 析 并 进行 可 视 化 展示 。 本 研究 的 局 限 性 在 于 当前 选用 的 数据 来 源 
仅 来 源 于 微 博 平台 ， 后 续 可 提高 数据 来 源 的 多 样 性 。 
Kei: RARE; BERTopic 主题 模型 ， 主 题 识别 ， 主 题 演化 
分 类 号 : G206 
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1 引言 Introduction 

在 网 络 信息 快速 交互 发 展 的 时 代 ， 微 博 等 社交 媒体 已 成 为 信息 传播 的 重要 
平台 。 微 博 因 其 快速 、 开 放 和 互动 性 强 的 特点 ， 使 其 成 为 突 发 事件 爆发 下 与 论 
生成 的 主要 媒介 ， 各 类 信息 被 广泛 地 传播 和 讨论 。 在 突 发 公共 事件 中 ， 微 博 平 
台 不 仅 能 够 迅速 传播 事件 信息 ， 还 能 够 反映 甚至 放大 公众 的 情绪 和 意见 ， 对 突 
发 事件 舆情 的 治理 产生 重要 影响 。 但 迅猛 的 信息 传播 速度 和 广泛 的 用 户 参 与 度 ， 
带 来 了 信息 准确 性 传达 、 事 件 谣言 控制 和 公众 情感 引导 等 方面 的 挑战 。 基 于 此 ， 
探究 微 博 平台 中 突 发 公共 事件 网 络 和 与 情 的 主题 演化 过 程 ， 控 气 该 类 事件 背景 下 
不 同 生命 周 期 阶段 舆论 的 关注 焦点 ， 为 政府 和 相关 机 构 提供 科学 的 决策 依据 ， 
更 有 效 地 应 对 和 管理 突 发 事件 中 的 网 络 僵 情 ， 促 进 信 息 的 健康 传播 ， 维 护 网 络 
空间 的 秩序 。 本 研究 选取 重大 突 发 公共 事故 “东航 Mu5735 空难 事件 ”为 案例 ， 
采用 BERTopic 主题 提取 模型 对 微 博 平台 中 相关 评论 数据 进行 主题 挖掘 和 事件 分 
析 ， 并 提供 可 视 化 的 数据 分 析 结 果 ， 把 控 突 发 公共 事件 舆情 发 展 方向 、 正 确 引 
导 网 络 和 与 论 、 提 供 可 供 参 考 的 相关 部 门 治理 策略 。 
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2 文献 综述 /Literature review 
2.1 突 发 事件 网 络 与 情 研 究 

突 发 事件 网 络 与 情 的 演化 具有 突 发 性 、 难 以 预测 性 、 关 注 度 高 、 扩 散 性 强 、 
影响 力 大 等 特点 ， 为 更 好 地 应 对 突 发 事件 网 络 熏 情 ， 需 要 对 突 发 事件 网 络 与 情 
的 演化 模式 和 规律 进行 深入 研究 中。 当前 国内 外 对 于 突 发 事件 网 络 与 情 的 研究 
主要 集中 于 以 下 三 个 方面 : 一 是 对 于 舆情 中 话题 的 发 现 及 其 演化 分 析 。ZhongDI 
采用 LDA 主题 提取 分 析 、SnowNLP 公众 情感 分 析 和 相关 性 分 析 ， 对 新 冠 肺炎 
突 发 公共 卫生 事件 进行 僵 情 演化 研究 。Chen 等 外 基于 Adam-LSTM 模型 预测 突 
发 公共 事件 中 网 络 与 情 的 热度 演化 。 许 露 萌 册 以 时 空 视角 运用 全 局 空间 自 相 关 
分 析 、 局 部 空间 自 相 关 分 析 和 灰色 关联 分 析 等 ， 进 行 突 发 公共 卫生 事件 网 络 与 
情 的 热度 演变 分 析 。 王 晰 斤 等 外 利用 事理 图 谱 对 重大 突 发 事件 熏 情 下 UGC 进行 
分 析 ， 实 现 刁 情事 件 之 间 的 因果 演化 过 程 及 演化 路 径 可 视 化 。 张 柳 等 外 基于 
LDA 模型 对 国内 外 突 发 事件 应 急 管理 文献 进行 主题 挖掘 ， 分 析 主 题 热度 及 确定 
主题 演化 路 径 。 草 树 金 等 四 结合 生命 周期 理论 、TF-IDEF 特征 词 - 权 值 模 型 以 及 湾 
在 狄 利克 雷 模型 方法 ， 探 索 突 发 公共 卫生 事件 微 博 与 情 传播 周期 中 各 阶段 的 热 
点 主题 ， 勾 勒 与 情事 件 主题 演化 的 时 序 发 展 趋势 。 二 是 对 于 突 发 事件 中 网 络 与 
情 的 触发 机 制 和 原理 的 研究 。 周 林 兴 等 四 利用 事理 图 谱 有 效 解析 了 重大 突 发 事 
件 网 络 与 情 诱 发 与 绥 释 机 理 。 杨 洋洋 外 基于 社会 压力 一 事件 状态 一 与 情 响应 
(PSR) 的 视角 ， 探 究 了 与 情事 件 中 原因 要 素 对 重大 突 发 事件 中 网 络 与 情 触 发 
的 影响 机 制 。 杨 洋洋 等 (0 采用 NCA 5 fsQCA 相 结合 的 融 知 发 酵 模 型 ， 探 究 突 
发 灾难 事件 熏 情 的 发 酵 机 理 和 理论 模式 。 三 是 对 于 突 发 事件 下 网 络 与 情 分 析 中 
群体 极 化 现象 的 研究 。 户 国 强 等 凯 以 新 冠 疫 情 期 间 “ 辉 瑞 新 冠 小 分 子 药物 ” 导 
件 为 例 ， 构 建 了 极端 观点 的 TCMCR 识别 模型 ， 对 其 网 络 群 体 极 化 中 极端 观点 
进行 了 有 效 识 别 。 卢 国 强 等 号 基于 风险 耦合 的 角度 分 析 三 元 空间 信息 观 领域 下 
突 发 事件 网 络 熏 情 群体 极 化 的 形成 因素 ， 并 对 其 进行 了 群体 极 化 的 演化 分 析 。 
贾 若 男 等 [3 根据 “数据 一 知识 一 服务 ”的 转化 路 径 构 建 了 突 发 事件 网 络 和 与 情 的 
群体 极 化 风险 评估 模型 。 
2.2 主题 建 模 技术 研究 

主题 建 模 作为 一 种 高 效 的 文本 分 析 工 具 ， 能 够 从 大 规模 的 网 络 文 本 中 提取 
出 潜在 的 主题 ， 为 网 络 与 情 分 析 提 供 了 深入 的 见解 。 目 前 国内 外 对 于 文本 主题 
建 模 分 析 的 研究 方法 包括 从 传统 算法 到 最 新 的 基于 深度 学 习 的 技术 。 一 是 基于 
文档 一 单词 的 共 现 频 率 特 征 来 抽取 主题 的 词 袋 模型 ， 如 潜在 语义 分 析 0 (LSA), 
概率 潜在 语义 分 析 053 LSA) FREE AKAN GE PHN LDA) 等 。 田 世 海 等 
U7] 采 用 改进 潜在 语义 分 析 和 支持 向 量 机 算法 (LSA+SVM)， 构 建 用 于 突 发 安全 
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事件 舆情 分 类 的 预警 模型 。 周 楠 等 089 结 合 PLSA with Background Language 与 关 
键 词 聚 类 的 方法 发 现 与 情事 件 内 部 子 话题 ， 并 最 终生 成 事件 子 话题 标签 的 ET 一 
TAG 模型 ， 挖 掘 事件 共性 以 及 反映 事件 子 话题 热度 的 变化 趋势 。 兽 子 明 等 09] 利 
用 LDA 模型 探究 突 发 公共 卫生 事件 网 络 导 情 各 周期 间 的 舆情 主 题 差异 。 列 等 
B29 应 用 LDA 模型 对 研究 中 所 选取 的 人 工 智能 领域 文献 的 摘要 进行 主题 提取 ， 探 
究 人 工 智 能 领域 的 主题 和 趋势 。Sakshi 等 2 使 用 LDA 对 1967 年 一 2021 年 发 表 
的 325 篇 研究 论文 的 语料库 进行 了 主题 提取 ， 从 而 确定 数学 表达 式 识 别 的 最 新 
发 展 趋势 。 二 是 基于 预 训练 词 嵌 入 的 聚 类 方法 ， 从 藤 入 的 聚 类 空间 的 复 中 去 采 
样 主题 词 ， 如 Top2VecP22] 模 型 和 BERTopic 模型 。Ghasiya 等 P3] 采 用 Top2Vec $ 
型 对 四 个 国家 有 关于 新 冠 肺炎 的 新 闻 报 道 进行 主题 提取 ， 挖 掘 关 键 主题 并 探索 
演化 趋势 。Grootendorst24 提 出 了 BERTopic 主题 建 模 方法 ， 解 决 传统 算法 中 的 
局 限 性 : 采用 BERT 句子 转换 器 制造 高 质量 、 包 含 上 下 文 语义 的 句子 矢量 表示 ; 
采用 基于 类 的 TF-IDF 弥补 聚 类 与 采 词 空间 前 后 不 兼容 问题 。Wang 等 253 提 出 了 
基于 BERTopic 的 跨 学 科 主 题 识别 和 演化 分 析 的 框架 ， 实 现 从 微观 层面 对 跨 学 科 
主题 演变 过 程 的 研究 。 曹 树 金 等 RH 利用 BERTopic 模型 对 所 选取 的 信息 资源 管 
学 科 四 个 数据 集中 文献 的 摘要 进行 主题 识别 ， 探 究 信 息 资源 管理 学 科 发 展 方 
向 。 

综 上 所 述 ， 对 于 突 发 事件 网 络 与 情 的 研究 仍 是 当下 的 热点 之 一 ， 尤 其 是 涉 
及 演化 过 程 的 研究 ， 对 于 该 类 性情 的 初步 处 理 是 需 进行 主题 识别 以 及 演化 路 径 
展示 。 当 前 与 情 领 域 使 用 最 为 广泛 主题 识别 的 方法 是 LDA 模型 ， 其 通过 使 用 狄 
利克 雷 先 验 概率 改进 了 pLSA， 为 新 文档 分 配 一 个 概率 ， 克 服 了 LSA 和 pLSA 
的 局 限 性 ， 但 LDA 仍 具 有 传统 主题 提取 方法 的 典型 问题 且 对 于 主题 的 数量 需 进 
行 提前 设 定 。Top2vec 模型 和 BERTopic 模型 分 别 使 用 Doc2Vec 方法 、BERT 名 
子 转换 器 来 实现 从 输入 文档 中 制造 语义 高 质量 嵌入 ， 且 针对 社交 媒体 帖子 以 及 
评论 这 类 短文 本 的 识别 效果 更 优 。BERTopic 模型 在 进行 主题 识别 时 涉及 的 步 又 
是 自 洽 的 ， 可 根据 该 领域 的 进展 以 及 特定 的 项 目 或 技术 限制 进行 自主 选择 ， 其 
支持 分 层 减 少 主题 以 优化 主题 的 数量 ， 即 主题 的 数量 不 一 定 事先 给 定 ， 提 供 先 
进 的 内 置 搜索 和 可 视 化 功能 ， 为 演示 制作 了 高 质量 多 种 类 的 图 表 。 通 过 有 效 地 
提取 和 分 析 大 量 文本 数据 中 的 主题 ， 主 题 识别 模型 技术 揭示 公众 关注 的 焦点 ， 
预测 舆 情 发 展 趋势 ， 理 解 和 监测 公众 对 突 发 事件 的 反应 和 情绪 ， 为 舆情 管理 和 
和 危机 应 对 提供 理论 文 持 。 
3 研究 设计 /Methodology 
3.1 研究 思路 
本 研究 提出 了 一 种 基于 BERTopic 模型 对 短文 本 突 发 事件 微 博 与 情 主题 演 
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化 分 析 的 总 体 思路 。 以 某 一 微 博 和 与 情 突 发 公共 事件 为 研究 对 象 ， 选 取 相 关 话 题 
下 用 户 评 论文 本 为 数据 源 ， 探 究 突 发 公共 事件 网 络 与 情 的 主题 演化 趋势 。 研 究 
思路 主要 分 为 以 下 四 个 部 分 : 数据 收集 、 数 据 预 处 理 和 事件 阶段 划分 、 主 题 模 
型 识别 、 主 题 演变 分 析 ， 如 图 1 Aras. 
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Figure 1 Research idea of thematic evolution analysis 

数据 收集 : 在 微 博 上 搜索 某 事件 关键 字 的 相关 话题 ， 确 定 研究 事件 时 间 段 ， 
采用 八 爪 鱼 采集 器 收集 评论 数据 。 

数据 预 处 理 与 事件 阶段 划分 ， 对 扑 取 到 的 数据 进行 数据 预 处 理 ， 并 且 结 合 
生命 周期 理论 和 百度 指数 趋势 图 进行 与 情事 件 阶段 划分 。 

主题 识别 与 演化 : 采用 BERTopic 模型 对 处理 后 的 数据 进行 主题 提取 以 及 可 
视 化 ; 对 提取 到 的 主题 文本 进行 Word2Vec 向 量化 ， 计 算 主题 相似 度 ， 判 定 主 
题 间 的 演化 关系 并 可 视 化 。 
3.2 研究 方法 
3.2.1 BERTopic 主题 提取 模型 

BERTopic 模型 克服 了 传统 主题 识别 模型 的 两 种 局 限 性 : 未 考虑 单词 的 上 下 
文 语义 ; 聚 类 和 采 词 之 间 不 一 致 。BERTopic 模型 采取 预 训练 的 语言 模型 创建 文 
档 嵌 入 从 而 获取 文档 级 别 的 信息 ， 充 分 考虑 上 下 文 语义 ;使 用 一 种 基于 类 别 的 
TF-IDF 变 体 进行 主题 表征 ， 解 决 传统 视角 下 聚 类 和 和 采 词 之 间 的 不 兼容 问题 P9。 


BERTopic 模型 进行 主题 识别 尤其 是 针对 短文 本 数据 主要 经 过 以 下 三 个 模块 化 的 
步 又， 以 下 具体 介绍 每 个 步 又 的 流程 。 

G) RASCH 

将 文档 转换 为 数字 进行 表示 。BERTopic 模型 中 默认 使 用 sentence-transform 
ers 模型 ， 该 模型 使 用 预 训练 的 语言 模型 将 句子 和 段落 转换 为 密集 的 向 量 表示 ， 
并 且 针对 语义 相似 性 进行 一 定 程 度 的 优化 ， 便 于 后 续 的 聚 类 。 在 嵌入 文档 的 过 
程 中 需 选择 适合 文本 对 应 的 语言 模型 ， 常 用 的 有 以 下 两 种 : 英文 以 及 其 他 多 语 
言 模 型 。 其 中 针对 英文 文档 选 定 的 是 英文 模型 "all-MiniLM-L6-v2"; 本 研究 的 文 
本 数据 都 是 中 文 ， 因 此 选 定 的 是 多 语言 模型 "paraphrase-multilingual-MiniLM-L1 
2-v2" 的 设置 。 

(2)” 聚 类 文档 

对 所 得 的 词 嵌 入 向 量 进行 文档 聚 类 。 首 先 ， 在 进行 聚 类 之 前 采取 降 维 处 理 ， 
解决 维 数 过 高 导致 谋 入 空间 稀 琉 ， 聚 类 模型 难以 聚 类 的 问题 。 在 BERTopic 模型 
中 默认 设置 是 UMAP 算法 ， UMAP 经 证 明 可 以 在 较 低 的 投影 维 数 中 保留 更 多 
的 高 维 数据 的 局 部 和 侈 局 特征 结构 PI， 从 而 保留 创建 语义 相似 文档 集群 所 需 的 
言 息 。 与 此 同时 ，UMAP 算法 对 风 入 维度 没有 计算 限制 ， 适 用 于 不 同 维度 空间 
的 语言 模型 。 

其 次 ， 采 用 基于 层次 和 密度 的 HDBSCAN 算法 对 降 维 后 的 向 量 进 行 分 类 ， 
从 而 得 到 各 个 主题 秘 。 HDBSCAN 使 用 软 聚 类 方法 建 模 集群 ， 具 有 在 可 能 的 情 
况 下 识别 异常 值 的 功能 ， 允 许 将 噪声 建 模 为 离 群 值 ， 从 而 防止 不 相关 的 文档 分 
配给 不 适用 的 集群 ， 提 取 的 噪声 更 少 ， 聚 类 质量 更 高 。 

(3) ”表征 主题 

采用 基于 类 的 TF-IDF 变 体 (c -TF -IDF) 算法 提取 聚 类 后 的 每 个 簇 的 主题 
词 ， 挖 掘 重要 词汇 ， 从 而 实现 主题 的 表征 。 使 用 HDBSCAN 作为 聚 类 模型 后 ， 
所 得 的 集群 是 具有 不 同 程度 的 密度 和 结构 ， BERTopic 模型 中 采用 c -TF -IDF 算 
法 ， 它 对 集群 的 预期 结构 没有 任何 要 求 。 

为 了 将 采 词 空间 收 束 到 对 应 的 徐 上 ， 首 先是 将 集群 中 的 所 有 文档 合并 为 一 
个 长 文档 ， 该 长 文档 表示 群集 ， 然后， 计算 每 个 单词 在 每 个 集群 中 出 现 的 频率 ，; 
最 后 ， 通 过 TF 与 IDF 的 频率 相 乘 得 到 词汇 的 重要 性 得 分 ， 合 并 top c-TF-IDF 中 
相似 的 主题 表示 。 通 过 以 上 流程 便 得 到 c -TF -IDF 算法 ， 其 计算 公式 如 公式 (1) 
所 示 。 


W, =o. log(1+ > (1) 


其 中 ， c 表示 class， A 表示 每 个 class 的 平均 单词 数量 ， class c 是 为 每 个 集 
群 连接 成 单个 文档 的 文档 集合 ，t 六 ， ER class e 中 词 {的 频率 ， 


tf a 表示 所 有 class 中 词 t 的 频率 。 
3.2.2 文本 向 量化 与 相似 度 度量 

BERTopic 模型 对 三 个 阶段 的 文本 分 别 进 行 主题 提取 ， 通 过 ec -TF -IDF 算法 
获得 每 个 主题 对 应 的 重要 主题 词 。 首 先 对 提取 到 的 主题 词 利用 Word2vec 算法 进 
行 向 量化 表示 ， 再 采用 余弦 相似 度 计算 相 邻 两 阶段 的 主题 相似 性 ， 确 定 主题 间 
可 进行 演化 的 相似 度 冰 值 ， 得 到 演化 路 径 ， 进 而 揭示 舆情 演化 的 规律 ， 为 后 续 
与 情 的 引导 策略 制定 提供 理论 依据 。 
4 实证 研究 /Empirical research 
4.1 数据 收集 

本 研究 在 微 博 上 以 “东航 Mu5735” 为 关键 字 获 取 相 关 话 题 ， 整 个 事件 的 
采集 的 时 间 段 选取 是 基于 表 1 中 时 间 线 以 及 事件 搜索 的 百度 指数 ， 即 从 2022 年 
3 月 21 日 事故 发 生 到 2022 Æ 4 H 20 日 “3。21” 东 航 MU5735 飞行 事故 调查 初 
步 报告 发 布 后 一 天 4 月 21 日 为 固定 时 间 段 。 通 过 八 爪 鱼 采 集 器 疏 取 每 个 话题 下 
固定 时 间 段 的 全 部 评论 数据 ， 包 括 评 论 人 、 评 论 内 容 以 及 评论 时 间 。 

表 1 “东航 Mu5735” 事 件 梳理 时 间 线 
Table 1 Timeline of the "China Eastern Airlines Mu5735" Incident 
时 间 事件 
2022-03-21 一 架 客 机 在 广西 蕨 县 发 生 事故 ， 并 引发 山 火 ， 伤 亡 情 况 未 明 。 


2022-03-21 民航 局 确认 东航 一 架 飞 机 险 毁 ;机 上 人 员 共 132 人 ， 其 中 旅客 123 人 、 机 组 9 人 。 
2022-03-22 截至 3 月 21 日 24 时 ， 尚 未 发 现 幸存 者 ， 飞 机 的 黑匣子 也 尚未 找到 。 
I 


2022-03-23 新 闻 发 布 会 上 通报 ， 东 方 航空 公司 MU5735 航班 的 一 部 黑匣子 已 于 23 日 被 发 现 。 
2022-03-23 东航 坠 机 事故 ， 消 防 救 援 人 员 已 发 现 部 分 飞机 残骸 和 人 体 组 织 碎片 。 

2022-03-26 东方 航空 公司 MU5735 航班 上 人 员 已 全 部 遇难 。 

2022-03-27 失事 飞机 第 二 部 黑匣子 已 找到 。 

2022-04-20 民航 局 发 布 关于 “3.21” 东 航 MU5735 飞行 事故 调查 初步 报告 的 情况 通报 。 


4.2 数据 预 处 理 与 事件 阶段 划分 

本 研究 对 文本 数据 的 预 处 理 主要 是 进行 分 词 和 去 停 用 词 处 理 、 对 应 的 日 期 
进行 格式 统一 化 。 首 先 对 于 文本 数据 标准 化 ， 包 括 进 行 繁体 简化 、 字 符 整 数 型 
转换 为 字符 串 型 、 异 常 字 符 与 格式 过 滤 、 表 情 符号 与 转发 评论 标识 正则 表示 化 
等 。 其 次 对 文本 数据 内 容 借助 JEBA 分 词 工具 进行 分 词 与 词性 标注 ， 最 终 筛 选 
保留 两 个 字 及 以 上 的 名 词 、 人 和 名、 地名、 机构 名 、 其 他 专 名 、 形 容 词 、 动 词 和 
名 动词 的 结果 。 最 后 采用 哈工大 停 用 词 表 并 进行 扩充 ， 对 分 词 后 的 结果 进行 去 
除 停 用 词 处 理 ， 经 过 以 上 预 处 理 后 ， 获 得 10120 条 文本 评论 数据 。 

从 “东航 Mu5735” 事 件 的 百度 指数 关键 词 搜索 趋势 图 〈 图 2) 观察 得 出 : 
“东航 Mu5735” 的 活跃 期 以 2022 年 3 月 21 日 为 起 点 、 以 2022 年 4 月 21 日 为 
终结 点 ， 且 其 慰 情 传播 过 程 呈 现 出 明显 的 三 个 阶段 的 变化 。 本 研究 依据 生命 周 
期 理论 和 百度 指数 趋势 图 ， 将 整个 舆情 事件 划分 为 以 下 三 个 阶段 : 发 生 期 〈3 
月 21 日 一 ?月 23 日 )、 扩 散 期 (3 月 24 日 一 3 月 27 日 )、 消 退 期 (3 H 28 日 一 4 


月 21 H). 


2 “东航 Mu5735” 熏 情 传播 趋势 图 
Figure 2 Trend of " Eastern Airlines Mu5735" Public Opinion Dissemination Chart 


4.3 主题 提取 
4.3.1 发 生 期 主题 提取 

在 发 生 期 期 间 主要 是 事故 发 生 引 发 山 火 ， 消 防 队 以 及 应 急 人 员 开 展 救援 ， 
调查 组 以 及 相关 媒体 进行 跟踪 报道 现场 搜救 情况 ， 直 至 23 日 确认 所 有 机 上 人 员 
全 部 遇难 。 对 发 生 期 间 的 文本 数据 进行 主题 提取 ， 共 获得 17 个 主题 ， 通 过 c- 
TF-IDF 计算 得 到 每 个 主题 对 应 的 特征 词 ， 可 视 化 结果 采用 条 形 图 展示 前 16 个 
主题 的 主题 特征 词 ， 如 图 3 所 示 。 其 中 提取 到 的 各 主题 词 分 类 主要 分 为 表 2 所 
示 ， 在 突 发 事故 发 生 初 期 网 民 集 中 关注 于 事故 发 生 过 程 、 搜 救 情 况 、 失 联 者 家 
属 心理 疗 愈 等 。 


表 2 发 生 期 主题 词类 别 
Table 2 Occurrence Period Category of Thematic Feature Words 

主题 方向 主题 方向 

Top0 Dx ER Hr OE eZ Top8 机 上 人 数 确 认 向 

Topl 事故 定性 向 Top9 幸存 者 生还 
Top2 与 Top12 谣言 猜测 癌 Top10 家 属 心理 疗 愈 向 

Top3 跟 进 报道 向 Top11 APLE AEK K 

Top4 失 联 者 家 属 安抚 Top13 现场 搜救 直播 向 

Top5 地 域 身份 向 Top14 搜救 过 程 

Top6 中 救 现场 环境 Top15 机 型 信息 

Top7 黑匣子 搜寻 向 Top16 失 联 者 随身 物品 


借助 图 4 可 以 直观 挖掘 主题 间 的 潜在 联系 ， 进 行 主题 的 合并 。 主 题 2 与 主 
题 12 都 是 围绕 着 舆情 发 生 期 的 期 间 相 关 谣 言 猜 测 向 ;主题 11、 主 题 13 与 主题 
16 都 是 围绕 事故 现场 救援 过 程 展 开 ， 主 题 8、 主 题 9 与 主题 6 之 间 的 联系 可 以 
解释 为 ， 基 于 搜救 现场 的 现状 而 引起 对 机 上 人 员 总 数 猜 测 ， 主 题 4 与 主题 10 是 
对 失 联 者 家 属 救助 以 及 安置 的 问题 上 潜在 的 联系 ， 主 题 0、 主 题 14 与 主题 5 之 
间 的 联系 为 网 民 密 切 关注 搜救 过 程 从 而 表达 祈求 平安 以 及 搜救 现场 出 现 失 联 者 
地 域 身份 信息 从 而 引起 同 地 域 网 友 的 共 情 。 针 对 主题 1、3、7、15 主题 之 间 的 
联系 可 以 理解 为 : 面 对 突 发 的 空难 事故 ， 东 航 、 民 航 局 等 首先 要 核实 事故 飞机 
的 基本 航班 信息 ， 其 次 对 产生 的 舆情 风波 召开 发 布 会 ， 及 时 做 出 回应 ;网民 最 
为 迫切 关怀 的 仍 有 事故 真相 ， 而 破解 真相 的 关键 在 于 黑匣子 的 破译 ， 因 此 与 主 


题 7 黑 匣子 搜寻 有 着 间接 的 关系 。 黑 匣子 的 破解 技术 与 机 型 信息 〈Top15) 有 着 
紧密 关系 ， 东 航 MU5735 是 波音 737 系列 客机 。 
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4.3.2 扩散 期 主题 提取 

由 于 前 期 的 搜救 结果 并 未 发 现任 何 失 联 者 的 遗体 以 及 黑匣子 ， 但 是 在 3 月 
23 日 接连 发 现 第 一 部 黑匣子 以 及 人 体 组 织 碎 片 ， 使 得 事故 调查 进度 和 搜救 结果 
出 现 了 实质 性 进展 ， 将 事故 与 情 发 展 推 往 高 潮 。 整 个 期 间 的 文本 评论 内 容 进行 
主题 提取 ， 最 终 共 获得 以 下 图 5 展示 的 15 个 主题 ， 对 主题 词 的 分 类 如 表 3 所 示 。 
该 阶段 主题 可 以 总 结 为 以 下 四 个 方面 : 一 是 经 过 DNA 比 对 ， 确 认 机 上 人 员 全 
部 遇难 ， 引 发 网 民 对 遇难 者 的 缅怀 和 和 祭 芙 ， 并 更 加 迫切 转发 关注 事故 真相 ， 二 
是 针对 事故 发 生 后 ， 中 国 面 临 的 外 部 舆论 环境 复杂 ， 别 有 用 心 者 借以 美国 阴谋 
论 来 挑拨 中 美 关 系 ， 三 是 关注 黑匣子 的 破译 进度 ， 包 括 黑 匣子 严重 受 损 极 大 阻 
碍 了 破译 进度 使 得 网 民 发 布 大 多 情绪 否定 词 的 评论 ， 四 是 对 于 遇难 者 信息 公布 
与 否 ， 从 而 引发 尊重 家 属 的 意愿 和 保护 遇难 者 的 隐私 两 个 方向 的 言论 。 

表 3 扩散 期 主题 词类 别 
Table 3 Diffusion Period Category of Thematic Feature Words 


主题 方向 主题 方向 

Top0 事件 转发 关注 Top8 黑匣子 破译 
Top! 航空 信息 Top9 JME a A 
Top2 RIKE Cat Top10 情绪 否定 词 
Top3 中 国 空难 事故 Top11 黑匣子 受 损 
Top4 美国 阴谋 论 Top12 航班 信息 
Top5 媒体 跟 进 报道 Top13 遇难 者 信息 公开 意愿 
Top6 官方 信息 公布 Top14 事故 真相 
Top7 遇难 者 家 属 救助 


对 扩散 期 的 主题 进行 可 视 化 描述 ， 生 成 交互 式 图 谱 如 图 6 所 示 。 其 中 每 一 
个 圆圈 都 代表 一 个 主题 ,圆圈 的 大 小 表示 主题 在 所 有 文档 中 出 现 的 概率 。 图 中 


事件 转发 关注 (Top0)、 航 空 信 息 (Topl) RRE OCH (Top) 三 个 主题 在 文 
档 中 出 现 的 概率 较 高 的 主题 ， 圆圈 之 间距 离 的 远近 表示 主题 之 间 相 似 性 的 程度 ， 
如 遇难 者 家 属 救助 (Top7) 与 遇难 者 信息 公开 意愿 (Top13) 两 个 圆圈 距离 较 近 
其 对 应 的 相似 程度 较 高 ， 余 弦 相 似 度 求解 相似 度 值 为 0.82， 两 者 都 是 基于 遇难 
者 家 属 对 接 处 理 方面 的 做 法 。 
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4.3.3 消退 期 主题 提取 

随 着 时 间 的 推移 加 之 空难 事故 调查 持续 时 间 长 ， 整 个 研究 事故 时 间 线 截至 
于 4 月 20 日 民航 局 公布 事故 调查 初步 报告 后 一 天 时 间 ， 与 情 逐 渐 淡 出 公众 视线 
结束 。 该 期 间 进行 主题 提取 后 ， 共 获得 以 下 17 个 主题 ， 前 16 个 主题 的 主题 特 
征 词 分 布 如 图 7 所 示 ， 对 主题 词 的 分 类 如 表 4 所 示 。 该 阶段 的 主题 聚焦 于 事故 
调查 以 及 遇难 者 缅怀 两 个 方面 。 首 先 ， 氏 航 局 公布 事故 调查 的 初步 报告 ， 对 事 
故 领 域 定性 、 险 机 轨迹 描述 、 黑 匣子 破译 进度 以 及 针对 初步 报告 后 对 信息 的 有 
效 性 与 可 读 性 的 评判 。 其 次 ， 消 退 期 间 正 经 清明 时 节 ， 无 情 的 空难 使 得 这 个 清 
明 节 更 加 伤感 与 痛心 ， 网 民 纷 纷 以 各 种 方式 表达 对 遇难 者 的 训 蛋 对 家 属 的 安慰 ， 
包括 发 表 让 家 属 借以 时 间 慢 慢 释 怀 疗 愈 翡 痛 的 看 法 ， 以 及 在 进行 事故 调查 时 过 
难 者 个 人 隐私 信息 公开 征求 家 属意 见 相 关 评 论 。 

表 4 消退 期 主题 词类 别 
Table 4 Fading Period Category of Thematic Feature Words 


主题 方向 主题 方向 

Top0 事件 转发 关注 Top9 事故 真相 

Topl 航空 信息 Top10 遇难 者 隐私 信息 保护 
Top2 调查 报告 通报 Top11 事故 调查 进度 
Top3 情绪 否定 词 Top12 事故 原 

Top4 遇难 者 缅怀 Top13 间 疗 愈 法 
Tops 黑匣子 破译 难点 Top14 等 待 事故 真相 


Top6 险 机 事故 Top15 坠 机 轨迹 描述 
Top7 TEE Ae Top16 事故 报告 评判 
Top8 清明 祭 东 航 
为 了 快速 识别 并 可 视 化 消退 期 中 文本 数据 集中 的 讨论 主题 的 分 布 情况 ， 生 
成 图 8 所 示 的 文档 -主题 分 布 图 谱 ， 每 个 点 代表 一 个 文档 ， 同 种 颜色 的 簇 是 代表 
同一 个 主题 下 的 文档 ， 颜 色 不 同 代表 的 主题 不 同 。 根 据 图 谱 ， 不 同 颜色 的 点 聚 
集 是 表明 这 些 主题 有 着 较 高 的 相似 性 ， 同 时 也 是 最 引 人 关 注 的 讨论 点 ， 如 事故 
真相 、 调 查 结果 、 事 故 调查 进展 以 及 航空 安全 措施 这 些 主题 的 集中 讨论 。 作 为 
最 为 关注 的 主题 群 ， 是 由 于 民航 局 针对 该 事故 公布 了 初步 调查 报告 ， 但 黑匣子 
受 损 严重 破译 难度 较 大 ， 事 故 真 相 短 时 间 无 定论 ， 因 此 针对 该 调查 结果 会 有 颇 
多 讨论 ， 网 民 表 达 一 些 包 括 负 面 情 绪 评 论 以 及 调查 报告 结果 的 认可 程度 。 
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7 消退 期 的 主题 特征 词 分 布 8 消退 期 的 文档 -主题 分 布 图 谱 
Figure 7 Distribution of Thematic Feature Figure 8 Document-Topic Distribution 
Words in the Fading Period Mapping for Fading Period 
4.4 主题 演化 


通过 BERTopic 模型 进行 主题 建 模 获得 三 个 阶段 各 自 对 应 的 主题 分 布 信息 ， 
再 对 相 邻 阶段 的 主题 采取 余弦 相似 度 进 行 主 题 间 相 似 性 度量 ， 设 定 与 情 演化 的 
相似 度 阀 值 ， 采 用 桑 基 图 揭示 整个 事件 舆情 发 展 过 程 主题 演化 路 径 。 其 中 净值 
的 设 定 是 结合 多 次 实验 验证 以 及 结合 实际 情况 下 主题 演化 规律 ， 最 终 选 定 了 0.2。 
整个 过 程 中 主题 演化 的 结果 如 图 9 所 示 ， 图 中 线条 的 宽度 代表 主题 间 余弦 相似 
度 的 大 小 ， 直 观 的 流 线 图 展示 了 不 同 阶段 与 情话 题 的 演变 与 转换 ， 助 于 追踪 和 
理解 与 论 焦 点 的 变迁 ， 对 于 预测 舆情 走向 和 制定 治理 策略 提供 了 理论 参考 意义 。 
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9 主题 内 容 演化 桑 基 图 
Figure 9 Thematic Content Evolution Sankey Chart 


从 发 生 期 演化 到 扩散 期 的 主题 主要 是 有 关 事 故 基本 情况 (1-1、1-8 与 1-15)、 
救援 过 程 关 注 (1-0、1-3、1-7 与 1-13)、 失 事 乘 客家 属 安抚 〈1-4) URSA 
言 (1-12〉 四 类 方向 。 对 事故 基本 情况 和 搜救 过 程 关注 演化 至 搜救 结果 公布 ， 
如 官方 和 媒体 公布 搜救 结果 信息 、 确 认 失 联 者 丝 已 遇难 以 及 黑匣子 现状 ; 失事 
乘客 家 属 转发 关注 后 续 救 助理 赔 工 作 以 及 征求 家 属 对 于 遇难 者 信息 公开 意愿 ; 
对 事故 谣言 方向 演化 至 直击 谣言 探究 真相 等 事件 如 黑匣子 和 航空 领域 信息 。 

扩散 期 中 出 现 了 新 生 演化 主题 3〈 中 国 空难 事故 ) 和 主题 10 (情绪 否定 词 )。 
主题 3 的 出 现 是 基于 在 扩散 期 间 事 件 发酵 到 引起 了 国外 的 关注 ， 对 外 部 与 论 以 
中 国 空难 事故 做 出 回应 。 主 题 10 中 大 量 的 情绪 否定 词 是 在 这 阶段 搜救 结果 出 现 
了 实质 性 进展 ， 但 所 有 失 联 者 全 部 遇难 以 及 黑匣子 受 损 严重 ， 搜 救 结果 的 强 现 
悲剧 性 ， 形 成 了 一 股 强大 的 情绪 否定 意义 的 舆论 翡 情 力量 。 主 题 $〈 媒 体 跟 进 
报道 ) 与 主题 6〈 官 方 信息 公布 ) 在 消退 期 演化 过 程 中 消亡 了 。 针 对 主题 5 媒 
体 主 要 是 对 搜救 过 程 进行 全 程 关 注 报道 ， 在 该 阶段 已 经 得 到 了 明确 的 搜救 结果 ， 
搜救 过 程 便 告 以 段落 ， 主 题 演化 结束 ， 针 对 主题 6 中 与 情 信息 要 以 官方 信息 公 
布 为 准 的 消亡 原因 是 ， 空 难事 故 调查 本 身 复杂 性 以 及 解读 具有 较 高 的 专业 壁 驹 ， 
民间 舆论 非 理 性 发 言 得 到 一 定 的 抵制 ， 呼 吁 一 切 以 官方 公布 信息 为 主 ， 纠 正人 与 
论 偏差 。 

消退 期 的 主题 大 多 演化 到 事故 调查 初步 报告 通报 、 清 明 时 节 悼 念 遇难 者 两 
个 方向 。 该 事故 调查 初步 报告 是 整个 消退 期 的 答 情 讨论 焦点 ， 报 告 通报 事故 发 
生 的 基本 航空 信息 、 荃 机 过 程 以 及 事故 现场 场景 、 事 关 真 相 的 黑匣子 记录 器 的 


破译 进度 等 ， 但 对 于 事实 真相 仍 无 定论 网 民 发 表 带 有 和 否定 情绪 意义 的 评论 。 对 
于 遇难 者 家 属 对 接 处 理 是 始终 贯穿 全 阶段 ， 以 及 清明 时 节 全 网 沉痛 情绪 表达 来 
悼念 此 次 事故 的 遇难 者 ， 共 情 家 属 遭 遇 ， 营 造 出 善意 的 与 论 坏 境 。 

5 结论 / Conclusion 

本 研究 提出 了 一 种 基于 BERTopic 模型 对 短文 本 突 发 事件 微 博 与 情 主题 演 
化 分 析 的 总 体 研 究 框架 ， 对 重大 突 发 公共 事故 “东航 Mu5735 空难 事件 ”进行 
主题 识别 ， 结 合生 命 周 期 理论 和 百度 指数 趋势 走 癌 将 事件 划分 为 三 个 阶段 ， 可 
视 化 各 个 阶段 的 主题 及 文档 分 布 ， 展 示 不 同 阶段 舆情 焦点 ;以 划分 的 三 个 阶段 
为 时 间 切 片 ， 对 相 邻 阶段 的 主题 采用 余弦 相似 度 度 量 主题 间 的 相似 性 ， 以 桑 基 
图 形式 展示 在 全 过 程 中 “东航 Mu5735 空难 事件 ”网 络 和 与 情 的 主题 演化 路 径 。 

在 舆情 发 生 期 ， 网 民 对 事故 发 生 过 程 、 搜 救 情况 、 遇 难 者 家 属 心理 疗 您 人 
方面 较为 关注 ， 在 舆情 扩散 期 ， 恤 情 主要 焦点 为 失 联 者 皆 以 遇难 的 强大 悲情 评 
论 、 事 故 引 发 的 中 美 关系 外 部 舆论 环境 变动 、 黑 匣子 的 破译 进度 以 及 遇难 者 信 
息 公 布 与 否 等 这 四 个 方面 ， 在 与 情 消 退 期 ， 该 阶段 的 主题 聚焦 于 事故 调查 以 及 
遇难 者 缅怀 两 个 方面 。 借 助 BERTopic 模型 将 各 阶段 主题 可 视 化 ， 明 确 每 个 时 期 
与 情 焦点 ， 精 准 把 控 突 发 公共 事故 与 情 发 展 方向 。 整 个 时 间 的 与 情 演 化 是 从 初 
发 的 有 关 事 故 基本 情况 、 救 援 过程 关 注 、 失 事 乘 客家 属 安抚 以 及 事故 谣言 四 类 
主题 演化 到 扩散 期 的 搜救 结果 公布 、 遇 难 者 家 属 求助 以 及 意愿 征求 、 探 究 事故 
真相 三 个 方向 ， 最 终 演化 到 消退 期 事故 调查 初步 报告 通报 、 清 明 时 节 悼 念 
者 两 个 方向 。 

综 上 ， 通 过 BERTopic 模型 以 及 相似 度 度量 厘清 了 选取 的 突 发 公共 事件 网 络 
情事 件 的 发 展 过 程 ， 挖 掘 事件 焦点 主题 、 分 析 演 化 流程 ， 为 后 续 治理 此 类 与 
情 提供 理论 分 析 基 础 。 本 研究 的 局 限 与 展望 : 本 研究 当前 仅 是 对 于 主题 进行 识 
别 以 及 分 析 演 化 过 程 ， 后 续 可 分 析 该 类 与 情 的 情感 演化 ， 以 及 提高 数据 来 源 的 
多 样 性 。 
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Research on the Evolution of Public Opinion Themes on Microblogs 
of Emergency Events Based on the BERTopic: A Case Research of 
the "Eastern Airlines Flight MU5735 Crash"* 

Jiang Changbin, Xu Sisi, Huang Yinghui, Xu Ziqi, Wang Hongyu 
(School of Management, Wuhan University of Technology, Wuhan Hubei 430070, China) 
Abstract: [Purpose/Significance] This research aims to systematically analyze the 
thematic evolution trends of public sentiment during emergency events, visualizing 
the focal themes throughout the development process of public sentiment, and 
providing a practical reference for guiding future online public sentiment. 
[Method/Process] Utilizing the BERTopic model for topic extraction, this research 
identifies the themes at different stages of sentiment development and measures the 
similarity between themes using cosine similarity to visualize the thematic 
evolutionary paths. The case of the "Eastern Airlines Flight Mu5735 crash" on Sina 
Weibo is examined to research the thematic evolution of public sentiment during an 
emergency. [Results/Conclusion] The empirical results demonstrate that the 
BERTopic model is effective and offers high visibility in theme identification for 
sentiment events, accurately capturing the hot topics in each phase of sentiment 
development and revealing the thematic evolution process during the spread of public 
sentiment. [Innovation/Limitation] In this research, we propose a general framework 
for analyzing the theme evolution of microblog public opinion on short-text 
emergencies based on the BERTopic model, and we analyze the theme content 
evolution of the extracted results and present them visually. The limitation of this 
study lies in the fact that the data sources selected in this study are only from the 
microblogging platform, and the diversity of data sources can be improved in the 

future. 
Keywords: Public sentiment in sudden accidents; BERTopic; Theme identification; 
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